Loading...
机构名称:
¥ 1.0

摘要 —机器学习 (ML) 模型已被广泛用于提高各种疾病诊断任务的准确性和效率。然而,应用 ML 模型执行与糖尿病相关的预测任务仍然具有挑战性,主要是因为患者的健康记录稀疏且存在大量缺失值。缺失值通常会破坏糖尿病预测流程,对现有方法构成挑战。当关键属性值(例如 HbA1c、FPG 和 OGTT2hr 的血液测试结果)缺失时,此类问题会显著恶化。在本文中,我们介绍了一个大规模糖尿病相关数据集,即慢性疾病管理系统 (CDMS) 数据集,该数据集收集了八年来超过 65,000 名患者的 700,000 多次就诊的临床记录。CDMS 是匿名收集的,在几个用于糖尿病预测的关键属性上具有很高的缺失值百分比。如果不仔细处理,缺失值将导致应用的 ML 模型的性能显著下降。在本文中,我们还通过使用 CDMS 进行大量实验来研究多种数据插补方法的有效性。实验结果表明,k-最近邻插补 (KNNI) 在这项糖尿病预测任务中的表现优于其他方法。具体而言,应用 KNNI 后,使用各种 ML 预测模型的糖尿病预测准确率和精确度均超过 0.8。索引术语 — 糖尿病相关数据集、糖尿病预测、缺失值、数据插补技术

糖尿病预测的缺失值填补 | DR-NTU

糖尿病预测的缺失值填补 | DR-NTUPDF文件第1页

糖尿病预测的缺失值填补 | DR-NTUPDF文件第2页

糖尿病预测的缺失值填补 | DR-NTUPDF文件第3页

糖尿病预测的缺失值填补 | DR-NTUPDF文件第4页

糖尿病预测的缺失值填补 | DR-NTUPDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0